智慧城市利益的最新全球增长导致了数万亿美元用于研发的投资。这些连接的城市有可能建立技术和社会的共生,并在全球范围内彻底改变社会的生活,安全,生态可持续性和生活质量。智能城市结构的一些关键组成部分是连接的智能电网,自动驾驶汽车,联合学习系统,智能公用事业,大规模的公共交通和积极的监视系统。尽管前景令人兴奋,但如果不解决这种高度自动化和数据共享的潜在社会影响,这些技术及其后续集成就无法尝试。此外,协调如此多的不同任务的可行性将需要一个快速,可扩展,统一的框架。为此,我们提出了Faro2,这是一个完全重新构想的Faro1的继任者,它是从头开始建造的。 FARO2提供了与其前身相同的功能,它充当统一的生物识别API线束,可为异构生物识别软件提供无缝评估,部署和简单的管道创建。 FARO2还提供了完全声明的功能来定义和协调自定义机器学习和传感器管道,从而使过程在原本不兼容的硬件和网络中分布。 Faro2最终提供了一种方法,可以在线快速配置,热门塑料和扩展大型协调或联合系统,而不会中断维护。由于在智能城市中收集的许多数据都包含个人识别信息(PII),因此FARO2还提供内置工具和层,以确保跨分布式系统跨系统的安全和加密的流媒体,存储和访问PII数据。
translated by 谷歌翻译
We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance while being significantly more efficient than diffusion or autoregressive models. Muse is trained on a masked modeling task in discrete token space: given the text embedding extracted from a pre-trained large language model (LLM), Muse is trained to predict randomly masked image tokens. Compared to pixel-space diffusion models, such as Imagen and DALL-E 2, Muse is significantly more efficient due to the use of discrete tokens and requiring fewer sampling iterations; compared to autoregressive models, such as Parti, Muse is more efficient due to the use of parallel decoding. The use of a pre-trained LLM enables fine-grained language understanding, translating to high-fidelity image generation and the understanding of visual concepts such as objects, their spatial relationships, pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M, with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88 on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also directly enables a number of image editing applications without the need to fine-tune or invert the model: inpainting, outpainting, and mask-free editing. More results are available at https://muse-model.github.io
translated by 谷歌翻译
基于分数的分歧已被广泛用于机器学习和统计应用。尽管他们的经验成功,但在将它们用于多模式分布时仍观察到了失明问题。在这项工作中,我们讨论了失明问题,并提出了一个新的分歧家庭,可以减轻失明问题。在密度估计的背景下,我们说明了我们提出的差异,与传统方法相比,报告的性能提高了。
translated by 谷歌翻译
已知DNN容易受到所谓的对抗攻击的攻击,这些攻击操纵输入以引起不正确的结果,这可能对攻击者有益或对受害者造成损害。最近的作品提出了近似计算,作为针对机器学习攻击的防御机制。我们表明,这些方法虽然成功地用于一系列投入,但不足以解决更强大,高信任的对抗性攻击。为了解决这个问题,我们提出了DNNShield,这是一种硬件加速防御,可使响应的强度适应对抗性输入的信心。我们的方法依赖于DNN模型的动态和随机稀疏来有效地实现推理近似值,并通过对近似误差进行细粒度控制。与检测对抗输入相比,DNNShield使用稀疏推理的输出分布特征。当应用于RESNET50时,我们显示出86%的对抗检测率为86%,这超过了最先进的接近状态的检测率,开销较低。我们演示了软件/硬件加速的FPGA原型,该原型降低了DNNShield相对于仅软件CPU和GPU实现的性能影响。
translated by 谷歌翻译
我们审查当前的解决方案和技术挑战,以实现自动语音识别,关键字发现,设备仲裁,语音增强和在多边形家庭环境中的来源本地化,以为Interspeech 2022特别会议提供背景,“信号处理和机器学习的挑战和机器,用于多个智能设备”。我们还确定了支持这些研究领域所需的数据集。根据评论和我们在多设备领域的研究经验,我们以对未来进化的前景结论
translated by 谷歌翻译
我们引入了综合学习,这是一个原则性的框架,将弱监督集成到机器学习模型的培训过程中。我们的方法共同训练末端模型和标签模型,该模型汇总了多个弱监督源。我们介绍了一个标签模型,该模型可以学会以不同的数据点的方式汇总弱监督源,并考虑训练期间终端模型的性能。我们表明,我们的方法在一组6个基准分类数据集中优于现有的弱学习技术。当出现少量标记的数据和弱监督时,性能的提高既一致又大,并且可靠地获得了2-5点测试F1分数在非整合方法中获得的增长。
translated by 谷歌翻译
最近提出的基于局部自回旋模型的神经局部无损压缩(NELLOC)已在图像压缩任务中实现了最新的(SOTA)过度分布(OOD)概括性能。除了鼓励OOD泛化外,局部模型还允许在解码阶段并行推断。在本文中,我们提出了两种平行化方案,用于本地自回归模型。我们讨论实施方案的实用性,并提供了与以前的非平行实施相比,压缩运行时获得显着增长的实验证据。
translated by 谷歌翻译
现代深度学习需要大规模广泛标记的数据集进行培训。少量学习旨在通过有效地从少数标记的例子中学习来缓解这个问题。在先前提出的少量视觉分类器中,假设对分类器决定的特征歧管具有不相关的特征尺寸和均匀特征方差。在这项工作中,我们专注于通过提出以低标签制度运行的差异敏感的模型来解决这一假设引起的限制。第一种方法简单的CNAP,采用基于分层正规的Mahalanobis距离基于距离的分类器,与现有神经自适应特征提取器的状态相结合,以在元数据集,迷你成像和分层图像基准基准上实现强大性能。我们进一步将这种方法扩展到转换学习设置,提出转导压盖。这种转换方法将软k-means参数细化过程与两步任务编码器相结合,以实现使用未标记数据的改进的测试时间分类精度。转导CNAP在元数据集上实现了最先进的性能。最后,我们探讨了我们的方法(简单和转换)的使用“开箱即用”持续和积极的学习。大规模基准的广泛实验表明了这一点的鲁棒性和多功能性,相对说话,简单的模型。所有培训的模型检查点和相应的源代码都已公开可用。
translated by 谷歌翻译
我们介绍了扬声器本地化问题的变种,我们呼叫设备仲裁。在设备仲裁问题中,用户将由多个分布式麦克风阵列(智能家居设备)检测到的关键字,并且我们希望确定哪个设备最接近用户。我们提出了一个端到端机器学习系统而不是解决完整的本地化问题。该系统了解在每个设备上独立计算的功能嵌入。然后,每个设备的嵌入式聚合在一起以产生最终的仲裁决策。我们使用大规模的房间模拟来生成培训和评估数据,并将系统与信号处理基线进行比较。
translated by 谷歌翻译
我们提出了一种新的,更普遍的方法来设计随机梯度基础优化方法进行机器学习。在这个新的框架中,优化器可以访问每个迭代的批次梯度估计,而不是单个估计。这更好地反映了典型机器学习设置中实际可用的信息。为了展示这种广义方法的有用性,我们开发EVE,适应使用杠杆梯度以获得更准确的第二轮估计的ADAM优化器。我们提供初步实验,没有绰号调整,这表明新的优化器略微占据了小规模基准的亚当,在更大的基准测试中执行相同或更糟。需要进一步的工作来改进算法和曲调超级参数。
translated by 谷歌翻译